要知道在seo優(yōu)化的過程當(dāng)中,有時(shí)候是需要對(duì)搜索引擎蜘蛛進(jìn)行屏蔽的,就是禁止對(duì)網(wǎng)站的某個(gè)地方進(jìn)行抓取,那么我們應(yīng)該如何屏蔽搜索引擎蜘蛛呢?下面我們一起來看一看具體的操作方法。
百度蜘蛛抓取我們的網(wǎng)站,希望我們的網(wǎng)頁能被包含在它的搜索引擎中。將來,當(dāng)用戶搜索時(shí),它會(huì)給我們帶來一定量的搜索引擎優(yōu)化流量。當(dāng)然,我們不想讓搜索引擎抓取所有東西。此時(shí)我們只希望能夠抓取搜索引擎搜索到的內(nèi)容。例如,用戶的隱私和背景信息不希望搜索引擎被捕獲和包含。解決這些問題有兩種 佳方法,如下所示: 1、通過403狀態(tài)碼,限制內(nèi)容輸出,屏蔽蜘蛛抓取。
403狀態(tài)代碼是http協(xié)議中的網(wǎng)頁返回狀態(tài)代碼。當(dāng)搜索引擎遇到403狀態(tài)代碼時(shí),它知道這些頁面受權(quán)限限制。我無法訪問它。例如,如果您需要登錄才能查看內(nèi)容,搜索引擎本身將無法登錄。如果您返回403,他也知道這是權(quán)限設(shè)置頁面,無法讀取內(nèi)容。當(dāng)然,它不會(huì)被包括在內(nèi)。
返回403狀態(tài)代碼時(shí),應(yīng)該有一個(gè)類似于404頁面的頁面。提示用戶或蜘蛛執(zhí)行他們想要訪問的內(nèi)容。兩者都是不可或缺的。您只有提示頁面,狀態(tài)代碼返回200,這是百度蜘蛛的大量重復(fù)頁面。有403個(gè)狀態(tài)代碼但返回不同的內(nèi)容。這也不是很友好。 2、robots協(xié)議文件屏蔽百度蜘蛛抓取
robots協(xié)議是放在網(wǎng)站根目錄下的協(xié)議文件,可以通過網(wǎng)址(網(wǎng)址: http : / / www.xxxx .com / robots . txt )訪問,當(dāng)百度蜘蛛抓取我們的網(wǎng)站時(shí),它會(huì)先訪問這個(gè)文件。因?yàn)樗嬖V蜘蛛哪些能抓,哪些不能。
robots協(xié)議文件的設(shè)置比較簡單,可以通過User-Agent、Disallow、Allow這三個(gè)參數(shù)進(jìn)行設(shè)置。
?User-Agent:對(duì)不同搜索引擎的聲明;?Disallow:不允許抓取的目錄或頁面;?Allow:被允許抓取的目錄或頁面通?梢允÷曰虿粚,因?yàn)槿绻悴粚懭魏尾荒茏ト〉臇|西,它就可以被抓取。
下面我們來看一個(gè)示例,場景是我不希望百度抓取我網(wǎng)站所有的css文件,data目錄、seo-tag.html頁面
User-Agent: BaidusppiderDisallow: /*.cssDisallow: /data/Disallow: /seo/seo-tag.html
如上所述,user-agent聲明了蜘蛛的名稱,這意味著它針對(duì)的是百度蜘蛛。以下內(nèi)容無法獲取&quot/*。css&quot,首先/指的是根目錄,這是您的域名。 *是代表任何內(nèi)容的通配符。這意味著無法抓取以.css結(jié)尾的所有文件。這是你自己的兩個(gè)經(jīng)歷。邏輯是一樣的。
如果要檢測上次設(shè)置的漫游器文件,可以訪問本文《檢查robots是否正確的工具介紹》并獲取詳細(xì)的工具來檢測您的設(shè)置。
以上就是“如何禁止蜘蛛抓取網(wǎng)站”的全部介紹了希望對(duì)您有所幫助,青島網(wǎng)站優(yōu)化就找青島鑫宇網(wǎng)絡(luò)優(yōu)化公司,行業(yè)經(jīng)驗(yàn)超過8年,先優(yōu)化后付費(fèi),關(guān)鍵詞排名進(jìn)百度 一頁,再支付優(yōu)化費(fèi)用。 |